Hunting for Big Fish¶

Identifikation von möglichen Steuerbetrügern anhand eines Airbnb Datensatzes.¶

Alexander Gayko, Ramin Nobakht, Lennart Küppers¶

Szenario¶

  • Finanzamt will Steuerhinterziehung minimieren
  • nur wenig Mitarbeiter und Zeit
  • daher Priorisierung von potentiellen Steuerhinterziehern

Vorgehen¶

  1. Data Exploration
  2. Bereinigen der Airbnb Daten
  3. Gruppierung von vermutlich zusammengehörigen Listings und Hosts
  4. Ermittlung minimale Einnahmen
  5. Visualisierung Big Fishes

Data Clean¶

“It is a capital mistake to theorize before one has data.” - Sherlock Holmes¶

Mängel in den Daten¶

  • Sinnlose Werte (minimum_nights < 0)
  • Widersprüche (construction_year > last_review)
  • Datentyp Features (price: 10 $ --> 10.0)
  • Verarbeitung leerer Felder (reviews = NaN)
  • Platzhalter-Daten (#Name?, (Email hidden by AirBnb))
  • Konsistenz erzeugt (calculated host listings count: 0 -> 1)

Identifying the Big Fishes¶

Wo werden die meisten Einnahmen generiert?¶

Generierung Big Fish Value¶

  • bigfishvalue = ( price · minimum nights · number of reviews) + (service fee · number of reviews)

  • Anzahl der Reviews --> Untere Schranke für Vermietungen

  • (Hypothese: price gilt pro Nacht)

Caveats:¶

  • Beispiel-Datei verbindet gleiche hosts nicht mittels host_id

  • Beispiel-Datei hat Angebote mehrfach drin

  • unser Vorgehen: über host_name und calculated_host_listings_count gruppieren

Name Totals
0 Shirley__12.0 6356840.0
21 Danielle__5.0 4877492.0
33 Karen__208.0 3950702.0
227 Sonder (NYC)__54.0 3742975.0
272 Juel__5.0 3731554.0
286 Justin__102.0 3371688.0
385 Carlos__5.0 2963873.0

Most Big Fishes in Lower & Western Manhattan, Brooklyn¶

Vielen Dank für die Aufmerksamkeit¶